Aranya web

Una aranya web o robot web (web crawler en anglès) és un programari que inspecciona pàgines Web de forma metòdica i automatitzada. Les aranyes web s'utilitzen per a crear una còpia de totes les pàgines web visitades per al seu processament posterior per un motor de recerca que indexa les pàgines per a proporcionar un sistema de recerques ràpid. Aquests programes comencen visitant una llista d'URLs identifiquen els hiperenllaços que contenen i els afegeixen a la llista d'URLs a visitar de manera recurrent d'acord amb un determinat conjunt de regles. El seu funcionament usual és a partir d'un grup d'adreces inicials que es proporciona a aquest programa, l'aranya les descarrega, n'analitza les pàgines i cerca enllaços a pàgines noves. Després descarrega aquestes pàgines noves, n'analitza els enllaços, i així successivament ad nauseam. Les tasques més comunes de les aranyes són: Crear l'índex d'una màquina de recerca. Analitzar els enllaços d'un lloc per a buscar enllaços trencats. Recol·lectar informació d'un cert tipus, com preus de productes per a recopilar un catàleg. Els administradors de webs poden controlar relativament l'accés de les aranyes a les seves webs creant l'arxiu "robots.txt", que usa una sintaxi definida per a guiar aquests robots per l'estructura d'aquella web. Podeu veure per exemple l'arxiu; http://ca.wikipedia.org/robots.txt


Developed by StudentB